安装hadoop包
- 下载好hadoop-2.4.1.tar.gz,使用SFTP工具上传到CentOS的/usr/local目录下
- 将hadoop包进行解压缩:
tar -zxvf hadoop-2.4.1.tar.gz - 对hadoop目录进行重命名:
mv hadoop-2.4.1 hadoop 配置hadoop相关环境变量
vi .bashrc
export HADOOP_HOME=/usr/local/hadoop
export PATH=$HADOOP_HOME/bin:$HADOOP_HOME/sbinsource .bashrc
配置Hadoop
修改core-site.xml
<property>
<name>fs.default.name</name>
<value>hdfs://spark1:9000</value>
</property>
修改hdfs-site.xml
<property>
<name>dfs.name.dir</name>
<value>/usr/local/data/namenode</value>
</property>
<property>
<name>dfs.data.dir</name>
<value>/usr/local/data/datanode</value>
</property>
<property>
<name>dfs.tmp.dir</name>
<value>/usr/local/data/tmp</value>
</property>
<property>
<name>dfs.replication</name>
<value>3</value>
</property>
修改mapred-site.xml
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
修改yarn-site.xml
<property>
<name>yarn.resourcemanager.hostname</name>
<value>spark1</value>
</property>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
修改slaves文件
spark1
spark2
spark3
在另外两台机器上搭建hadoop
- 使用如上配置在另外两台机器上搭建hadoop,可以使用scp命令将spark1上面的hadoop安装包和.bashrc配置文件都拷贝过去
- 要记得对.bashrc文件进行source,以让它生效
- 记得在spark2和spark3的/usr/local目录下创建data目录
启动hdfs集群
- 格式化namenode:在spark1上执行以下命令(不要执行多次,不然会导致datanode的ID不一致,以后都只要直接第二步):
hdfs namenode -format - 启动hdfs集群:
start-dfs.sh - 验证启动是否成功:jps、50070端口
spark1:namenode、datanode、secondarynamenode
spark2:datanode
spark3:datanode
启动yarn集群
- 启动yarn集群:
/usr/local/hadoop/sbin/start-yarn.sh - 验证启动是否成功:jps、8088端口
spark1:resourcemanager、nodemanager
spark2:nodemanager
spark3:nodemanager